OpenAI Araştırması Sohbet Robotu Değerlendirme Yöntemlerindeki Kusurları Ortaya Çıkarıyor
OpenAI ve Georgia Tech araştırmacıları, yapay zeka sohbet robotlarının değerlendirilme şeklindeki sistematik kusurları tespit etti ve mevcut test yöntemlerinin yanlış yanıtları istemeden teşvik ettiğini ortaya koydu. Çalışma, ChatGPT ve DeepSeek-V3 gibi modellerin, cehalet itiraflarını cezalandıran ikili puanlama sistemleri nedeniyle dürüst belirsizlik yerine kendinden emin tahminlere öncelik verdiğini gösteriyor.
Halüsinasyonlar öngörülebilir matematiksel kalıplar izliyor ve nadiren görülen eğitim verileri tutarlı hatalara neden oluyor. Kontrollü testlerde, en iyi modeller bile bilgi boşluklarını kabul etmek yerine tekrar tekrar yanlış biyografik detaylar sağladı. Araştırma, doğruluğu ödüllendiren, hataları cezalandıran ve şeffaf "bilmiyorum" yanıtları için tarafsızlığı koruyan revize edilmiş bir puanlama sistemi öneriyor.
İlk denemeler, bu yaklaşımı kullanan modellerin stratejik ihmal yoluyla daha yüksek genel doğruluk elde ettiğini gösteriyor. Bulgular, AI kıyaslaması hakkındaki temel varsayımlara meydan okuyarak, güvenilirliğin yalnızca model mimarisinden ziyade değerlendirme çerçevelerine daha fazla bağlı olabileceğini öne sürüyor.